边陲

Stable Diffusion 系列 - 1 初次见面

最近更新：2025-11-06 | 字数总计：769 | 阅读估时：2分钟 | 阅读量：次

总体框架
文本
影像
训练
小结

最近在看Difix3D（近期NVIDIA一个去除3DGS/NERF噪声的工作，是基于sd微调的），正好借此契机学习下SD的概念和原理。

总体框架

将影像组织成向量，首先通过VAE的编码器预测一个高斯分布的均值和方差，将影像向量压缩为维度更低的、包含高斯噪声的潜空间变量z。U-Net网络在文本等condition的指导下，紧接着从潜变量z中预测其中的噪声ε。然后通过多步采样去噪得到纯净的变量z_0。VAE的解码器再将其恢复到原始影像的维度大小，得到生成影像。

文本

text –(tokenizer)–> tokens –(text_encoder)–> vectors

text先经过tokenizer, 转为token

token: 文本拆分成字符，然后通过查询词表，将字符映射为整数id
然后经过text_encoder (CLIP), 转为语义向量

tokens → 词嵌入+位置编码 → 多层Transformer Encoder → 每个词的embedding
- 词嵌入：一个可训练的查表矩阵，把每个词映射到一个高纬度向量上。矩阵的大小是（词表大小*每个词的嵌入维度）。
- 位置编码：将每个词在句子之中的位置做标记。
输出的文本向量，会输入U-net引导去噪过程。

影像

images_vec –(vae-encoder)–> latent_vec z –(u-net)–> noise_vec –(vae-decoder)-> images_vec

VAE-encoder：将高维的影像向量压缩到低维的潜空间，并且加入高斯噪声。它预测的不是一个确定的值，而是一个高斯分布的均值和方差。然后从这个分布中采样，得到加有高斯噪声之后的latent向量z：

为什么预测分布：应该是让模型学习到分布，而不是某一些特定的输入数据，否则不具有生成能力。

u-net: 从加噪声后的变量z中估计出噪声。这个过程通过交叉注意力机制将文本条件相结合。在u-net预测出噪声之后，还需要通过多步的还原得到干净的潜变量。重复去噪过程，直到时间步为0.
1
2
3
4
5
z = VAE_encoder(x)
noise = U_net(z, t, condition)
while t > 0:
z_{t-1} = (z_t - β_t * ε_θ) / sqrt(α_t) + disturb
t = t -1
VAE-decoder: 将潜向量还原成原图大小的影像。

训练

Difix的训练过程使用sd-turbo的预训练模型初始化。冻结：tokenizer、text-encoder、VAE-encoder。激活：u-net(去噪)、VAE-decoder、以及从encoder到decoder的skip-connection.

小结

去噪过程仅仅和U-net+调度器有关, 条件信息注入的地方也是U-net。
VAE编码器只是负责把影像压缩到潜空间，是一次加噪过程，和去噪过程无关；也不同于diffusion模型的逐步加噪过程。
为什么stable-diffusion要采用VAE：就是要把扩散过程从像素空间转到潜空间。直接在像素空间操作，计算量极大。
对于特定的下游任务一般使用lora微调VAE-decoder，因为decoder对于潜空间-生成影像的影响最大。

2025-11-05 该篇文章被 Junfan W 打上标签: 算法